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摘 要 : 视频 超 分 状 率 (video Super-resolution，VSR)， 其 目的 是 利用 多 个 相 邻 帧 的 信息 来 生成 参考 帧 的 高 分 辨 率 版 
本 。 现 有 的 许多 VSR 工作 都 集中 在 如 何 有 效 地 对 齐 相 邻 帧 以 更 好 地 融合 相 邻 帧 信息 ， 而 很 少 在 相 邻 帧 信息 融合 这 一 
重要 步骤 上 进行 研究 。 针 对 该 问题 ， 提 出 了 基于 组 反馈 融合 机 制 的 视频 超 分 辩 模 型 (GFFMVSR)。 有 具体 来 说 ， 在 相 邻 
帧 对 齐 后 ， 把 对 齐 视频 序列 输入 第 一 重 时 间 注 意 力 模块 ， 然 后 ， 把 序列 分 成 几 个 小 组 ， 各 小 组 依次 通过 组 内 融合 模 
块 实现 初步 融合 。 接 着 ， 不 同 小 组 的 融合 结果 经 过 第 二 重 时 间 注 意 力 模块 。 然 后 ， 各 小 组 逐 组 输入 反馈 融合 模块 ， 
利用 反馈 机 制 反馈 融合 不 同 组 别 的 信息 ， 最 后 ， 把 融合 结果 输出 重建 。 经 验证 ， 该 模型 具有 较 强 的 信息 融合 能 力 ， 
在 客观 评价 指标 和 主观 视觉 效果 上 都 优 于 现 有 的 模型 。 
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Video super-resolution model based on group feedback fusion mechanism 
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(1. School of Computers, Guangdong University of technology, Guangzhou 510006, China; 2. Qingdao Research Institute of 
Beihang University, Shandong Qingdao 266000, China) 


i = Abstract: Video super-resolution (VSR) , which aims to exploit information from multiple adjacent frames to generate a high- 
resolution version of a reference frame. Many existing VSR works focus on how to effectively align adjacent frames to better 
fuse adjacent frame information, and little research has been done on the important step of adjacent frame information fusion. 
To solve this problem, This paper propose a video super-resolution model based on group feedback fusion mechanism 
(GFFMVSR) . Specifically, after adjacent frames are aligned, the aligned video sequences are fed into the first temporal 
attention module. Then, the sequence is divided into several groups, and each group achieves preliminary fusion through the 
intra-group fusion module in turn. Next, the fusion results of different groups go through a second temporal attention module. 
Then, each group inputs the feedback fusion module group by group, and uses the feedback mechanism to feedback and fuse 


mo the information of different groups. Finally, the fusion result output is reconstructed. It has been verified that the model has 
r strong information fusion ability, and is superior to the existing models in both objective evaluation indicators and subjective 
visual effects. 

Key words: video super-resolution; temporal attention; feedback mechanism; group fusion 


0 als 组 成 ， 通 过 端 到 端的 方式 学 习 LR 图 像 到 HR 图 像 的 非 线性 
= 映射 ， 并 展示 了 令 人 印象 深刻 的 潜力 。 此 后 ， 许 多 深度 学 习 
超 分 辩 率 (super-resolution, SR) 是 指 将 相应 的 低 分 辨 率 方法 被 应 用 到 SISR 领域 。 例 如 ，Kim 等 人 Bl 受到 VGGDPI 的 
(low-resolution, LR) 图 像 重 建 为 高 分 辩 率 (high-resolution, HR) 启发 而 提出 的 VDSR， 采 用 更 深层 次 的 卷 积 网 络 架 构 。Li 等 
图 像 的 过 程 。 根 据 输入 帧 的 数量 ，SR 任务 可 以 可 分 为 两 类 : 人 外 提出 了 一 个 通过 反馈 连接 使 用 更 多 的 上 下 文 信息 来 纠正 
单 图 像 超 分 辨 率 (single-image super-resolution，SISR) 和 视频 氏 级 特征 学 习 的 网 络 架 SRFBN。 盘 等 人 喇 提 出 了 一 个 应 用 残 
超 分 辨 率 (video super-resolution, VSR)。 本 文 是 关于 视频 超 分 。 差 中 的 残 差 (RIR) 和 结合 使 用 空间 、 坐标 注意 力 充分 提取 和 复 
辩 率 (VSR) 任 务 的 研究 。VSR 在 计算 机 视觉 和 图 像 处 理 研究 用 特征 的 网 络 架构 FFAMSR。 尽 管 这 些 网 络 实现 了 最 先进 的 
已 
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领域 引起 了 广泛 的 关注 ， 具 有 广泛 的 应 用 前 景 。 例 如 ， 当 监 性 能 ， 但 高 计算 成 本 和 内 存 占用 限制 了 它们 在 移动 设备 上 的 
控 录 像 被 放大 以 识别 人 或 车 牌 时 ， 或 者 当 视 频 被 投影 到 高 清 应 用 。 为 了 解决 这 个 问题 ， 一 些 轻 量 级 网 络 被 提出 来 ， 例 如 
晰 度 显示 器 上 以 获得 视觉 上 的 愉悦 时 ， 就 需要 它 。 FALSR-A I、 SMSR Tl, 
近年 来 ， 随 着 深度 学 习 的 发 展 ， 基 于 深度 学 习 的 超 分 辨 在 VSR 领域 , Huang 等 人 图 提出 了 一 种 名 为 BRCN 的 双 
率 算 法 在 性 能 上 有 了 极 大 的 提高 。 第 一 个 基于 深度 学 习 的 向 循环 卷 积 网 络 ， 可 以 对 跨 多 帧 的 长 期 时 间 信 息 进行 建 模 ， 
SISR 算法 是 由 Dong 等 人 口 提 出 的 SRCNN。 它 由 三 个 卷 积 从 而 提升 了 VSR 的 质量 。Caballero 等 人 中 提出 了 VESCPN, 
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录用 定稿 张 庆 武 ， 等 ; 基于 组 反馈 融合 机 制 的 视频 超 分 辨 率 模 型 第 39 卷 第 10 期 
该 网 络 通过 端 到 端的 方式 联合 训练 光 流 估计 和 时 空 网 络 ， 从 ”” 邻 帧 信息 的 更 好 融合 。 

而 实现 了 高 效 的 VSR。Tao 等 人 09 提 出 了 SPMC， 该 网 络 通 其 主要 贡献 点 包括 : 

过 设计 的 亚 像素 运动 补偿 模块 同时 实现 了 运动 补偿 和 上 采样 。 a) 提出 了 基于 分 组 和 反馈 机 制 思想 的 视频 超 分 辨 率 模 


Kim AUZ 3DCNN 固有 的 时 空 学 习 能 力 启发 提出 了 ”型 ， 该 模型 能 有 效 地 融合 对 齐 帧 中 的 高 层 信息 ， 提 高 了 视频 
3DSRNet， 该 网 络 通过 堆 闪 多 个 3D 卷 积 层 进行 VSR 并 避免 ”重建 的 能 
了 直接 的 运动 对 齐 。Jo 等 人 0 提出 的 DUF 利用 3DCNN 来 b) 在 视频 超 分 领域 内 引入 了 组 反馈 机 制 , 提供 了 一 种 新 
挖掘 时 空 信息 ， 并 预测 一 个 动态 上 采样 滤波 器 03 进 行 隐 式 运 ”的 相 邻 帧 信息 融合 方法 以 提高 时 空 信息 融合 的 性 能 。 

动 补偿 和 上 采样 ， 从 而 代 蔡 在 像素 层面 进行 的 光 流 估计 和 对 c) 在 模型 内 引入 了 双重 时 间 注 意 力 , 时 间 注 意 力 模块 能 
齐 。Haris 等 人 09 提 出 的 RBPN 通过 使 用 循环 编 解 码 模块 来 ”捕捉 隐藏 在 相 邻 帧 内 的 重要 信息 ， 使 得 网 络 能 恢复 更 清晰 ， 
利用 空间 和 时 间 信 息 。TDAN03 和 EDVR09 把 可 变形 卷 积 应 。 ”细节 更 丰富 的 视频 帧 。 

用 于 VSR 领域 并 提出 了 一 种 时 间 可 变形 对 齐 模块 , 它们 利用 1 ”方法 论 

该 模块 在 特征 层面 实现 运动 对 齐 。 É 
Hupél! 4i Gilbert IFA RM, 在 人 类 认 知 理论 中 , 连接 1.1 网 络 框架 


皮层 视觉 区 域 的 反馈 连接 可 以 将 反映 信号 从 高 阶 区 传递 到 低 如 图 1 所 示 ， 基 于 组 反馈 融合 机 制 的 视频 超 分 辩 率 模型 
阶 区 ， 从 而 被 加 以 利用 。Zamir 等 人 [019 更 是 在 前 人 的 基础 上 主要 由 五 个 部 分 组 成 : 特征 提取 与 对 齐 模块 (feature extraction 


提出 了 一 个 适用 于 计算 机 视觉 领域 的 反馈 机 制 网 络 . 近 年 来 ， and alignment module ，FEAM)， 组 内 融合 模块 (intra-group 
已 已 被 应 用 到 各 种 视觉 任务 此 2 纹 的 网 络 架 构 中 ， 并 表现 吕 fusion module，IGFM)， 双 重 时 间 注 意 力 模块 (dual temporal 
了 不 错 的 结果 。 据 笔者 调查 , 反馈 机 制 还 没有 在 VSR 的 研 attention module, DTAM), ， 反 馈 融 合 模块 (feedback fusion 
领域 中 得 到 应 用 。 得 益 于 前 人 的 启发 时， 笔者 思考 : 既 module, FFM), 重建 模块 (rebuild module, RM). K| HP ii t fi 
反馈 机 制 09 人 允许 网 络 携带 历史 信息 来 影响 新 输入 信息 头 表示 反馈 融合 ， 绿 色 箭 头 表 示 全 局 残 差 跳 连接 。 该 网 络 模 
习 ， 那 么 融合 了 部 分 相 邻 帧 信息 的 结果 对 其 余 相 邻 帧 的 融 型 的 任务 是 根据 输入 的 2N+1 帧 视频 序列 重建 参考 帧 的 高 分 
是 否 同样 具有 影响 ? 为 此 ， 本 文 提 出 了 一 个 基于 组 反馈 融 辩 率 版 本 。 把 输入 视频 序列 定义 为 Ue TE) 输出 的 
机 制 的 视频 超 分 辨 率 模型 (video super-resolution model based ”参考 帧 超 分 辩 率 版 本 定义 为 I ,参考 帧 的 真实 高 分 辩 率 版 本 
on group feedback fusion mechanism，GFFMVSR)， 本 文 反馈 定义 为 , BIRERE FE SON Conv(s.n) ， 反 卷 积 操作 定义 为 
方案 的 原理 是 ， 具 有 部 分 相 邻 帧 信息 的 结果 可 以 促进 其 余 相 Deconv(s,n) ， 其 中 :是 滤波 器 的 大 小 ，n 是 滤波 器 的 数量 。 
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图 1 基于 组 反馈 融合 机 制 的 视频 超 分 辨 率 模型 
Fig. 1 Video super-resolution model based on group feedback fusion mechanism 

REE GABOR FARE ESE, 其 ” 建 结果 有 用 的 信息 ， 在 IGFM 后 插入 了 一 个 和 时 间 注 意 力 模 

操作 如 式 (1) 所 示 。 块 一 结构 相同 的 时 间 注 意 模块 二 ( 74M, )， 构 成 了 双重 时 间 注 
人 Fe (1) ” 意 力 模 块 (DTAM), 该 时 间 注 意 力 模块 将 在 1.3 节 中 详细 阐述 。 

其 中 frea O 代表 特征 提取 与 对 齐 操作 。 (Rte Re Rid AR T TAM, 后 的 特征 序列 定义 为 {, 碟 …, 友 } ， 其 操作 如 式 (3) 
表 经 过 对 齐 后 的 相 邻 帧 特征 序列 。 在 FEAM， 特 征 提取 简单 所 示 。 

过 


地 通过 具有 步 进 卷 积 运算 的 下 采样 来 实现 ， 而 对 齐 操作 参考 (AS ES EN} = fram (EE PS FD (3) 
EDVR/?] H jE Hy ABE FR BE A RI SAR TT E(B PCD 对 其 中 ， fan 代表 时 间 注 意 力 模块 二 的 操作 。 

齐 模块 ) 来 实现 ， 该 部 分 建议 读者 参考 EDVR I) PCD 对 齐 跨 组 别 信息 通过 基于 反馈 机 制 的 反馈 融合 模块 进一步 整 
模块 的 详细 信息 。 合 。 如 图 2 所 示 ， 图 1 中 红色 虚线 框 可 以 展开 成 了 次 迭代 


经 过 对 齐 的 相 邻 帧 随后 输入 时 间 注 意 力 模块 一 ( TAM, ), (T=N),，! 代 表 1 BIT 中 的 某 一 次 迭代 。 为 了 使 FFM 中 的 隐 


从 而 计算 相 邻 帧 与 参考 帧 的 相似 性 ， 这 将 有 利于 组 内 信息 的 ” 藏 状态 携带 输出 的 概念 ， 联 系 每 次 迭代 的 损失 。 损 失 函 数 将 
融合 。 其 操作 如 式 (2) 所 示 。 在 1.5 WP EAM. FPA} 中 的 元 素 逐 一 输入 
{Pew Ps Fit) = Sram (Pens Pes, Feb) (2) FFM 模块 实现 反馈 融合 。 此 外 RY 被 视 为 初始 隐藏 状态 FY o 
其 中 fam O 代表 时 间 注 意 力 模块 一 的 操作 。{ zy,…,…, FEN) FFM 的 第 :次 迭代 输入 包括 第 :组 特征 E 和 来 自前 一 次 
民 表 经 过 时 间 注 意 力 计算 的 相 邻 帧 特征 序列 。 和 迭代 的 隐藏 状态 Fv. Fo 代表 FFM 的 第 :次 输出 。 其 操作 如 
随后 对 (Five Bi Fv} 分 成 N 组 ， 每 组 代表 一 种 特定 。 式 (4) 所 示 。 
的 帧 速率 。 把 各 小 组 序列 输入 一 个 参数 共享 的 IGFM 实现 小 F" = fory (FF) (4) 
组 内 的 初步 融合 ， 得 到 融合 后 的 特征 序列 ， 定 义 为 其 中 for) 代表 FFM 的 操作 , 并 且 反 馈 的 真实 过 程 如 图 2 所 
(ASS FS} (IGFM 模块 将 在 1.2 节 中 详细 阐述 ) 。 aR. FFM 模块 将 在 1.4 节 中 详细 阐述 。 
融合 后 的 不 同 组 别 所 蕴涵 的 信息 不 一 样 。 为 了 突出 对 重 把 反馈 融合 的 结果 输入 重建 模块 生成 残 差 图 像 。 如 图 1 
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所 示 ， 重 建 模块 使 用 Deconv(k,m) 将 融合 后 的 LR BM 


HR 特征 ， 


使 


的 操作 如 式 (5) 所 示 。 


KKK, 


J Conv(3, Cou) 生成 网 络 的 残 差 图 像 。 


2 RRM 


融合 过 程 


Fig. 2 Feedback fusion process unfolds 


BA, WERIN E Re R 
次 上 采样 来 生成 参考 帧 的 高 分 辨 率 版 本 i o H 


所 示 。 


区 


ISR = 1805 +f, (18) 


其 中 fw 代表 上 采样 核 的 操作 。 上 采样 


TA EM = 


更 | 


这 里 
F 


建 结果 作为 最 终 的 重建 结果 。 
1.2 组 内 融合 模块 (IGFM) 


ae $ 的 有 用 信息 


aa 


分 利用 有 


效率 ， 需 要 在 
序列 LES BS 
于 到 参考 帧 的 时 间距 离 , 相 
被 重新 排列 为 GG) 
, 参考 帧 Fr 和 后 一 帧 Ps, 组 成 的 子 
DH WH 
间距 离 的 相 邻 帧 的 贡献 是 不 相等 的 ， 
据 参考 帧 的 引导 对 不 同时 间 昌 
取 和 融合 。 值 得 尘 
任意 帧 作为 输入 。 

对 于 每 个 组 ， 组 内 


征 


一 帧 Fe, 


是 ， 


应 用 


密 块 中 


最 后 产生 分 组 特 和 


积 、 


通过 
DUFI2 的 
组 


帧 间 时 间 关 系 在 VSR 相 邻 帧 融合 中 是 至 关 习 
区 域 和 视差 问题 ， 


遮挡 、 模 糊 


信息 


z 个 1x1 % 


的 时 空 


15 个 2D 单元 (unit) 来 深度 整合 每 个 组 内 
。 稠 密 块 的 每 一 自 
批量 归 一 化 23] (batch normalization，BN)、ReLUDC4、 


全 序列 


个 2D 单元 将 所 有 先前 的 特 和 


次 上 采样 核 。 
| 参考 帧 的 7 个 SR 版 本 IS 
RUAK, 


剔除 过 多 的 无 关 特 征 ， 并 提 
反馈 融 合 前 进行 初步 的 非 反馈 组 内 融合 。 
Fou} 进行 分 组 .与 之 前 


E 意 的 是 ， 本 文 的 方法 可 


{FES FE} 


: 基于 组 反馈 融合 机 制 的 视频 超 分 辨 率 模型 


Lim 


征 放 大 到 
E 建 模块 


(5) 


和 输入 参考 帧 的 双 三 
操作 如 式 (6) 


(6) 


在 7 VRE RIA 
TE) 。 值 得 注意 


》 总 
的 是 ， 


E 建 的 参考 帧 携带 了 越 来 越 多 
同时 也 更 接近 真实 的 HR 版 本 ， 因 


Š 
u 


能 较 少 。 


其 中 G,={F%,F， 


以 很 容 


易 地 推 / 


融合 模块 被 部 署 用 于 每 个 组 内 的 特征 
融合 。 如 图 3 所 示 ， 该 模块 的 前 部 分 使 用 
卷 积 层 来 实现 每 个 小 组 


E 


对 特 
的 工作 不 一 样 , 基 
邻 的 2N 帧 被 分 成 N 组 ,原始 序列 


,nell:N], 


息 提 


到 


核 的 选择 是 任意 的 ， 

总 共 将 得 
随 着 
的 相 邻 帧 信 
此 选择 最 后 一 次 的 


为 了 充 
高 随后 的 反馈 


ee 


Fi} 是 由 前 
序列 , 需要 提醒 的 
现在 每 一 组 中 (具体 原因 参考 第 2.2 节 )。 不 同时 
通过 分 组 的 方式 可 以 根 
E 离 的 相 邻 帧 进行 高 效 的 信 


有 卷 积 核 的 3D 


特征 融合 。 然 后 , 通过 在 2D 笛 


(Ff, Ef, 


FS} =ficrn QG Gros 
FH fiom O 表示 卷 积 操作 。 


道 进行 了 


Gy}) 


了 效 的 修改 。 


的 信息 


j 


元 依次 
1x1 4 
BN, ReLU, 3x3 卷 积 组 成 。 如 在 文献 [25] 中 所 做 的 ， 每 
E 图 级 联 在 一 起 作为 输入 。 最 后 
职 层 减 少 通道 数 。2D 稠密 块 的 设计 受到 
启发 。 为 了 提升 效率 ， 组 内 融合 模块 的 权重 由 每 个 
k 享 ， 并 对 本 文 的 数据 流通 
的 操作 如 式 (7) 所 示 。 


该 模块 


(7) 
代表 组 内 融合 模块 操作 。 第 2.2 
节 验 证 了 建议 的 时 间 分 组 的 有 效 性 。 
1.3 双重 时 间 注 意 力 模块 (DTAM) 


不 同 的 相 邻 帧 的 信 


重要 的 (由 于 
息 量 不 同 )。 


时 间 注 


FE 意 力 可 以 更 加 聚焦 于 有 
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一 视 同仁 。DTAM | 
意 力 模块 构成 , 分 别 
组 融合 前 后 特征 序列 


信息 融合 效果 。 


两 个 一 样 
命名 为 ZaM Fill TAM, 


ao aT 
fE— “Mik 


相似 性 。 直 观 地 说 ， 


参考 特征 更 相似 的 特征 


相似 性 距离 (即时 间 注 意 力 图 


信息 。 


利于 后 续 重 建 的 特征 


上 ， 而 非 


的 ， 结 构 如 图 4 所 示 的 时 
。 它们 分 别 聚 焦 于 分 
时 间 信 息 的 捕获 和 权重 计算 ， 从 而 提高 


3 组 内 融合 模块 


Fig.3 Intra-group fusion module 


间 注 


间 中 计算 特征 序列 的 


入 空间 中 ， 应 该 更 多 # 
se di 


M, ) 可 以 计算 为 


M, =h(F, F£) = sigmoid OF *Y' $F) 


这 里 ，Fr 被 视 为 参考 特征 。 
是 两 个 嵌入 运算 ,可 通过 简 六 
激活 函数 用 于 限制 输出 在 [0, 1] 之 间 , 稳定 梯度 反 向 
主意 力图 大 小 和 特征 图 
相 邻 帧 的 注意 力 加 权 特 和 


注意 , ITA 


这 里 ，@ 代表 按 


计算 


ielr-N,r+N] , OF) 


如 下 : 


Fe =F OM, 


立 置 元 素 的 乘法 。 


同 Ey 对 于 TAM, as 


考 特征 为 座 。 其 时 间 


如 式 (10)(11) 所 示 ( 此 时 


注意 力 


区 


ie[LN] ): 


M; = (FS FS) = sigmoid (OCF SY" GP) 
F“ =F‘ OM; 


Element-wise 
multiplication 


J4 时 间 注 意 力 模 块 


Fig.4 Temporal attention module 


1.4 反馈 融合 模块 (FFM) 


FFM 模块 如 图 
反馈 信 


一 个 完整 的 反馈 过 程 。 
该 模块 依次 包含 
接 有 效 地 跨 层 


刁 级 流动 。 


操作 ， 该 操作 可 将 HR 特征 


到 不 断 细 化 融合 特征 上 
逐个 融合 特征 序列 (AF 


5 所 示 。 
E Fa 以 指导 融合 第 :组 特征 医 
多 信息 的 表示 Re 传递 给 下 


为 了 实 


3 个 投影 组 ， 其 中 的 信 


每 个 投 


的 效果 。 


在 FFM 的 前 端 ， 
缩 ， 以 通过 反馈 信息 
细 化 组 的 输入 特征 


用 Comw(m) 对 F$ Fil F, 
E Fev 来 指导 融合 输入 特征 五 


LR ; 


区 


现 FFM 模块 的 反馈 


息 通 过 密 


hoe 


与 


WORF AE, 


(8) 
和 OF) 


的 卷 积 滤波 器 来 实现 。sigmoid 
传播 。 请 
M: 的 尺寸 是 相同 的 。 每 帧 


(9) 


是 如 此 。 值得 注意 的 是 , 在 TAM, PB 
M, 和 注意 力 加 权 特 和 


E 的 计算 


(10) 
(11) 


Bt (tell) GS FFM 接收 
本 ， 然 后 将 融合 了 更 
一 次 迭代 和 重 构 模 块 ， 从 而 形成 
融合 功能 ， 
RAY DEERE 


I 一 个 LR 特征 上 ， 


影 组 主要 包括 上 采样 和 下 采样 
投影 到 


从 而 达 


LIA RT FFM 来 有 效 地 


区 


迭代 过 程 如 


2 展开 所 示 。 


tt 进行 级 
FE ， 产 生 特 征 


DAT Es 
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LR? = C (FY, FED) (12) 所 有 实验 都 是 在 配备 Python=3.8、PyTorch=1.1 和 Nvidia 


其 中 CO 代表 初始 通道 压缩 操作 ， LR 代表 对 Ret OFS 2080TI 的 GPU 服务 器 上 进行 。 
的 级 联 , 定 义 AS 和 5 为 第 1 次 迭代 时 FFM 中 第 8 (gel1:3]) 个 ”2.2 消融 实验 


投影 组 产生 的 HR 和 LR 特征 图 。H; 可 以 通过 以 下 方式 获得 : 分 组 实验 。 首 先 用 不 同 的 方法 来 组 织 输入 的 序列 ， 一 种 
HE = Dec, (tH, BD) (13) Base 方法 ( 记 作 Basel) fi Hey A Ti ASHE Beth A APL, 

其 中 ， Dec.) 表示 在 第 & 个 投影 组 使 用 Deconv, (km) 进行 上 采 ”并 一 次 性 输入 IGFM 和 FFM 模块 (中 间 不 具有 时 间 注 意 力 模 

样 操作 。 相 应 地 ， 可 由 下 式 获得 : 块 ), 此 处 的 FFM 模块 只 执行 一 次 ， 不 具有 反馈 机 制 。 另 外 ， 
Ls =Conv.([H!,H?,.…, HEJ) (14) 除了 文中 建议 的 分 组 方式 {345，246，147}, 还 尝试 了 其 他 方 


Ep, Con, 表示 在 第 8 个 投影 组 使 用 Conv, (km) 进行 下 采样 法 的 分 组 :{123，345，567} 和 {345，142，647}。 如 表 1 中 
操作 。 为 降低 参数 量 和 提高 计算 效率 ， 本 文 在 除了 第 一 个 投 。 示 {345,，246，147} 的 分 组 方法 所 获得 的 PSNR 最 高 ， 这 上 蜡 z 
影 组 外 的 Deconv, (km) 和 Conv, (km) 之 前 添加 了 Comdm 进行 了 在 每 组 中 添加 参考 帧 将 有 助 于 模型 提取 参考 帧 中 缺失 的 
通道 压缩 操作 。 息 。{345，142，647} 表 现 次 优 则 可 以 归 因 于 距离 参考 帧 不 
时 间 步 长 的 相 邻 帧 信息 差异 较 大 , 这 将 不 利于 信息 的 分 组 学 习 。 
表 1 分 组 方法 的 消融 实验 (PSNR) 
Tab.1 Ablation experiment with grouping method 
模型 Basel {123,345,567} {345,142,647} {345,246,147} 


gi 4S 


Vid4 27.09 27.12 27.17 27.20 
Vimeo-90K-T 37.06 37.12 37.16 37.19 
图 5” 反馈 融合 模块 各 模块 实验 。 为 了 验证 各 模块 的 作用 ， 实 验 中 把 分 组 实 
Fig.5 Feedback fusion module 验 提 到 的 {345,246,147} 分 组 方式 作为 Base 模型 ( 记 作 Base2), 

on 为 了 充分 利 ] 来 自 每 个 投影 组 的 有 | 信息 ， 本 文 对 投影 分 别 在 Base2 模型 上 引入 时 间 注 意 力 模块 一 (time attention 
— 组 产生 的 LR 特征 进行 特征 融合 (图 5 中 的 红色 箭头 所 示 )， module 1，TAM' ), 时 间 注 意 力 模块 二 (time attention module 2, 
于 以 产生 FFM 模块 的 的 输出 : TAM, )， 反 馈 融 合 机 制 (feedback fusion mechanism, FFM' )。 
© F" = Cre (G, GGD (15) ”值得 注意 的 是 ， 分 组 后 反馈 融合 机 制 的 关闭 是 通过 在 时 间 维 
© 其 中 ， CrO 代表 Conv(.m) 的 函数 。 度 级 联 相 邻 组 别 特征 ， 然 后 只 执行 一 次 FFM 模块 实现 。 此 

1.5 损失 函数 外 ， 整 合 了 TAM,, TAM, 、 FFM’ 的 完整 模型 记 为 GFFMVSR 

在 本 工作 中 ， 选 择 L1 损失 来 优化 所 提出 的 网 络 。 虽 然 (Ours) 设置 放大 的 倍数 为 4， 按 照 实 验 设 置 进行 实验 后 ， 在 

只 使 用 重建 序列 SE) 中 最 后 一 次 的 结果 当做 最 终结 vids 测试 集 上 的 PSNR 值 如 表 2 所 示 。 

果 ， 但 在 训练 时 ， 仍 需要 把 中 间 结 果 与 损失 函数 联系 起 来 ， 表 2 在 vid4(4x) 测 试 集 上 的 组 件 消融 实验 

确保 每 次 迭代 FFM 模块 都 能 最 大 限度 融合 当前 输入 特征 图 Tab. 2. Component ablation experiments on the vid4 (4x) test set 

的 有 用 信息 。 网 络 中 的 损失 函数 可 以 表示 为 模型 时 间 注 意 力 模块 一 时 间 注 意 力 模块 二 反馈 机 制 PSNR 

er ee eee Base2 27.20 
Los) =F W jz — 158 (16) eae T a 

其 中 ，09 表示 网 络 的 参数 。W' 是 一 个 常数 因子 ， 代 表 了 每 次 TAM, y 27.28 
C 迭代 时 SR 结果 的 贡献 值 。 将 所 有 和 迭代 的 丈 ' 设置 为 1， 这 意 TAMI+TAM2 y V 27.33 
e 味 着 每 次 重建 的 SR ERRAR, AEREE FFM’ V 2738 
© 代 都 能 尽 可 能 地 去 融合 高 级 信息 。 Ba J J a 

mn TA urs 
2 。 实验 结果 和 分 析 由 表 2 第 1、2、3、4 行 可 见 ， 引 入 时 间 注 意 力 模块 一 和 
2.1 实验 设置 时 间 注 意 力 模块 二 , 对 Base2 模型 在 PSNR 值 上 分 别 有 0.09dB 


a) 数据 集 。 采 用 Vimeo-90k29 作 为 训练 集 ， 这 是 一 个 广 和 0.08dB 的 提升 , 同时 引入 两 个 时 间 注 意 力 构成 双重 时 间 注 
泛 用 于 视频 超 分 辩 率 的 训练 集 。 它 包含 约 90k 份 7 帧 的 视频 ， 意 力 模块 后 ，PSNR 有 0.13dB 的 提升 。 由 第 1、5 行 可 见 ， 
剪辑 。 从 高 分 辩 率 的 视频 剪辑 中 裁剪 出 空间 分 辩 率 为 入 反馈 融合 机 制 ，PSNR 值 有 0.18dB 的 提升 。 由 最 后 一 行 
256x448 的 区 域 .与 文献 [26, 27] 相 似 , 通过 应 用 标准 差 o=1.6 可 见 ， 整 合 了 双重 时 间 注 意 力 和 反馈 机 制 的 完整 模型 性 能 达 
的 高 斯 模糊 核 和 4 倍 下 采样 生成 64 x 112 的 低 分 辩 率 视频 前 ” 到 最 大 值 ， 相 比 Base2 模型 高 出 了 0.274B， 这 证 实 了 本 文 提 
辑 。 在 两 个 流行 的 基准 数据 集 上 评估 了 所 提出 的 方法 :Vid4P8 出 的 模型 合理 性 。 
和 Vimeo90K-TP29。 这 两 个 基准 数据 集 都 具有 各 种 运动 和 刻 23 对 比 现 有 先进 模型 
当 的 场景 ， 因 此 适用 于 评估 本 文 方法 的 信息 融合 和 高 分 辩 率 在 本 节 中 , 将 本 文 方法 与 几 种 最 先进 的 VSR 方法 进行 了 
重建 能 力 。 比较 ， 包 括 TOFlow?4], DUFU2], RBPNU4], EDVRU¢, 
b) 实现 细节 : 除非 另 有 说 明 ， 和 否则 像 大 多 数 VSR 方法 ”MuCANB31、LiuB44、PFNLB5 和 VSR-Transformer®°], TOFlow 
[29,16,30] 一 样 ,本 文 网 络 以 7 个 视频 帧 作为 输入 , 即 N=3。 和 RBPN 都 使 用 光 流 在 像素 层面 进行 显 式 运动 估计 。EDVR 
使 用 PReLUB0 作 为 每 个 子 网 络 中 除 最 后 一 层 之 外 的 所 有 卷 。 则 采用 对 噪声 处 理 能 力 更 强 的 隐 式 运动 估计 。DUF、MuCAN 
积 和 反 卷 积 层 之 后 的 激活 函数 。 将 Conv(k,m) 和 Decorv(k,m) 中 ”和 PFNL 则 跳 过 了 运动 估计 过 程 。 最 后 一 种 专门 使 用 最 新 的 
的 大 设 为 6， 以 及 4 个 步伐 和 2 个 填充 ，m 设 为 64。 使 用 视觉 transformer (ViT) B7 网 络 来 完成 VSR 任务 。 通 过 运行 公 
Adam623 优 化 器 进行 优化 ,其 中 夺 =09 ， 有 尼 =0.999 。 在 训练 中 开 的 代码 或 者 自己 仔细 复 现 了 大 多 数 方法 ， 并 试图 重 现 原始 
不 使 用 权重 衰减 。 学 习 率 最 初 设置 为 2x104， 然 后 每 8 个 论文 中 报告 的 结果 。 
epoches 降低 0.5 倍 , 直到 60 个 epoches 结束 。 小 批量 的 大 小 Vid4 数据 集 。 表 3 显示 了 关于 Vid4 的 定量 结果 ， 其 中 
设置 为 2 训练 数据 通过 0.5 的 概率 进行 翻转 , 旋转 进行 增强 。 的 数据 或 者 由 笔者 计算 ， 或 者 来 自 于 原始 论文 。 其 中 Y 和 


qu 
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录用 定稿 


等 : 


RGB 分 别 表示 亮度 和 RGB 通道 ,“-” 意 味 着 该 数值 无 法 取 
得 。 作 为 GFFMVSR 的 降级 版 本 ，GFFMVSR-S( 只 使 用 时 间 
注意 力 模 块 一 ) 在 Y 通道 中 实现 了 27.43/0.8373 的 平均 
PSNR/SSIM 值 , 在 RGB 通道 中 实现 了 25.93/0.8186, 这 可 以 


说 是 优 于 所 有 其 他 方法 。 采 用 双重 时 间 尘 


S ÆJ GFFMVSR, Æ YJ 
定性 结果 如 图 6 所 示 。 可 以 看 到 GFFMVSR 比 


他 方法 产生 


FE 意 力 后 , GFFMVSR- 
I RGB 通道 都 获得 了 更 高 的 性 能 。 


续 的 帧 中 相同 位 置 取水 


基于 组 反馈 融合 机 制 的 视频 超 分 辩 率 模型 
的 边缘 更 锐利 , BCH 
此 外 , 为 了 比较 时 间 一 致 和 
日 历 序列 中 提取 并 可 视 化 时 间 分 布 
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E 更 精细 ,这 也 验证 了 本 文 方法 的 优越 性 。 
E 的 性 能 ， 从 Vid4 数据 集中 的 
图 ( 见 图 7)。 通 过 在 多 个 连 
F 行 的 像素 (图 7 中 的 红线 ) 并 垂直 堆 


车 它们 来 获得 时 间 轮 廊 。 可 以 看 出 ，GFFMVSR 产生 了 最 一 


致 的 结果 ， 与 其 他 方法 相 比 ， 


包含 更 均匀 的 线条 细节 。 


表 3 在 Vid4 上 的 4X 视 频 超 分 辩 率 定量 比较 


Tab. 3 Quantitative comparison of 4x video super-resolution on Vid4 


它 具 有 更 少 


的 闪烁 伪 像 ， 并 且 


模型 Frames (Calendar(Y) City(Y) Foliage(Y) Walk(Y) Average(Y) Average(RGB) 

- PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM 

Bicubic 1 18.83 0.4936 23.84 0.5234 21.52 0.4438 23.01 0.7096 21.80 0.5426 20.37 0.5106 

TOFlow”*! 7 22.29 0.7273 26.79 0.7446 25.31 0.7118 29.02 0.8799 25.85 0.7659 24.39 0.7438 

DUF-52L!"7! 7 24.17 0.8161 28.05 0.8235 26.42 0.7758 30.91 0.9165 27.38 0.8329 25.91 0.8166 

RBPN I 7 24.02 0.8088 27.83 0.8045 26.21 0.7579 30.62 0.9111 27.17 0.8205 25.65 0.7997 

EDVR-L09 7 24.05 0.8147 28.00 0.8122 26.34 0.7635 31.02 0.9152 27.35 0.8264 25.83 0.8077 

Liu"! 5 21.61 - 26.29 - 24.99 - 28.06 - 25.23 - - - 

PFNLB31 7 24.37 0.8246 28.08 0.8385 26.51 0.7768 30.65 0.9135 27.40 
VSR-Transformer °°! 5 24.08 0.8125 27.94 0.8107 26.33 0.7635 31.10 0.9163 27.36 
GFFMVSR-S 7 24.32 0.8253 28.09 0.8312 26.48 0.7771 30.80 0.9158 27.43 
GFFMVSR if 24.39 0.8282 28.11 0.8337 26.54 0.7784 30.85 0.9166 27.47 
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Fig.6 Qualitative comparison of4xVSR on the Vid4 dataset 
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日 历 序 列 上 红线 的 时 间 轮 廓 可 视 化 ， 用 于 显示 时 间 一 致 性 


Fig.7 Temporal profile visualization for the red line on the calendar, sequence to show the temporal consistency 


Vimeo-90K-T 24 42. Vimeo-90K-T 444 SM Vimeo-90K 


中 选取 的 大 约 7K 个 视频 片段 作为 测 
景 和 大 运动 。PSNR/SSIM 的 定量 结果 见 表 4, H 


x 


KEAT ESAE 


试 集 ， 涵 盖 了 大 量 的 场 
中 也 包括 了 


Eo- ”意味 着 该 数值 无 法 取得 ,在 PSNR 


和 SSIM， 本 文 方法 远 远 超过 了 大 多 数 最 先进 的 方法 ， 如 
TOFlow, DUF, RBPN 和 MuCAN. 唯一 的 例外 是 EDVR-L, 


它 的 模型 大 小 大 约 是 本 文 方法 的 四 倍 , 且 EDVR 涉及 到 一 个 
需要 大 量 数据 和 训练 时 间 的 预 训练 过 程 。 尽 管 如 此 ， 本 文 方 
法 在 PSNR 还 是 相当 不 错 的 ， 在 SSM 略 胜 一 筹 。 
8 所 示 。 可 以 看 到 ， 

GFFMVSR 也 可 以 在 这 个 具有 挑战 性 的 数据 集 上 产生 视觉 上 


令 人 信服 的 SR 图 像 。 


此 外 , Vimeo-90K-T 的 定性 结果 如 图 
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RA 在 Vimeo-90K-T 上 的 4X 视 频 超 分辨 率 定量 比较 
Tab. 4 Quantitative comparison of 4x video super-resolution on Vimeo-90K-T 
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KKA, F: 基于 组 反馈 融合 机 制 的 视频 超 分 辨 率 模型 


3 ”结束 语 


Frames Param YChannel RGB Channel 本 文 针对 存在 于 人 类 视觉 系统 中 的 反馈 机 制 仍 未 在 现 有 

模型 视频 超 分 辨 率 模型 中 得 4 gigi, FL ary 

- > PISNE SSM DEN SSM 视频 超 分 辩 率 模型 中 得 到 充分 应 用 的 问题 提出 了 种 新 的 

端 到 端 可 训练 的 视频 超 分 辩 率 网 络 ， 称 为 GFFMVSR。 通 过 

Bicie l - 31.30 0.8687 29.77 0.8490 将 分 组 思想 和 反馈 机 制 结合 在 一 起 应 用 到 VSR 任务 中 , 有效 

TOFlow41 7 14M 34.62 0.9212 32.78 0.9040 地 提高 了 相 邻 帧 信息 的 融合 效果 和 目标 帧 重建 质量 。 输 入 序 

DUF-52L!1 7 58M 36.87 0.9447 34.96 0.9313 列 被 重组 为 具 个 同 帧 速率 的 几 组 了 序列 。 分 组 允许 以 分 层 

anche E ae ee 方式 提取 时 空 信息 ， 之 后 是 组 内 融合 模块 对 小 组 特征 进行 初 

i aes . ' 步 融 合 。 而 反馈 融合 机 制 通过 模仿 人 类 的 认 知 学 习 过 程 ， 通 

EDVR-LI9 7 20.6M 37.61 0.9489 35.79 0.9374 过 反馈 信息 高 效 学 习 并 融合 新 输入 的 内 容 。 通 过 在 模型 的 恰 
MuCANG3] 7 - 37.32 0.9465 35.49 0.9344 当 位 置 应 用 时 间 注 意 力 构 成 的 双重 时 间 注 意 力 模 型 更 进 


GFFMVSR-S(ours) 7 4.7M 37.43 0.9481 35.62 0.9373 


GFFMVSR(ours) 0.9493 35.68 0.9385 
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步 
促使 模型 专注 于 有 用 信息 的 融合 。 在 几 个 基准 数据 集 上 的 大 
量 实验 表明 ， 本 文 提 出 的 模型 在 定量 和 定性 两 方面 都 优 于 现 
有 的 VSR 方法 。 
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Fig. 8 Qualitative comparison of 4xVSR on the Vimeo-90K-T dataset 
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